یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (rpss)

Authors

بهروز عبدالعلی

behrouz abdolali number 113 – mohebban aley – taleghani street – shahriar – tehran – iranتهران شهریار خیابان طالقانی کوچه محبان اهل بیت پلاک 113 حسین صامتی

hossein sameti sharif university of technology - computer departmentتهران دانشگاه صنعتی شریف دانشکده کامپیوتر محمد حسین قزل ایاغ

mohammad hossein ghezeayagh imam hossein university – electrical departmentتهران - دانشگاه امام حسین - گروه مهندسی الکترونیک

abstract

تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام می شود و دنباله صوتی به بخش هائی تقسیم می شود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص می شود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوینده محسوب می شوند. برای مرحله ی تقطیع روش های متعددی وجود دارد که تقطیع بر مبنای bic یکی از روش های مرسوم است. این روش به دلیل محاسبات آماری آن، نیاز به زمان محاسبات طولانی دارد. هدف اصلی این مقاله ارائه ی روش تقطیع بر اساس بسامد گام گفتار است، که هم دارای دقتی در حدّ روش های مرسوم است و هم دارای سرعت محاسبات بالا است، به طوری که در مقایسه با تقطیع بر اساس bic به طور میانگین دارای مزیّت 4/2 برابری در سرعت و افزایش یک درصد در دقت است.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS)

تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام می‌شود و دنباله صوتی به بخش‌هائی تقسیم می‌شود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص می‌شود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوین...

full text

طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

Introduction: The art of voice mimicking by computers, has with the computer have been one of the most challenging topics of speech processing in recent years. The system of voice conversion has two sides. In one side, the speaker is the source that his or her voice has been changed for mimicking the target speaker’s voice (which is on the other side). Two methods of p...

full text

بررسی تأثیر افت شنوایی بر مهارت های سریع حرکتی دهانی، سرعت گفتار و قابلیت فهم گفتار

هدف: تأثیر منفی افت شنوایی بر مهارتهای حرکتی سریع اندام های گفتاری، سرعت گفتار و قابلیت فهم گفتار هر یک به تنهایی در افراد کم شنوا به اثبات رسیده است. بررسی نحوه این تأثیرگذاری در آستانه های مختلف شنوایی و چگونگی وجود ارتباط بین این سه متغیر گفتاری و ارتباط بین آزمون های موجود برای بررسی این متغیرها هدف این پژوهش می باشد. روش بررسی: این مطالعه تحلیلی مقطعی بر روی 46 بزرگسال مبتلا به افت شنوایی ...

full text

تقطیع هجایی گفتار پیوسته فارسی با استفاده از آستانه‌گذاری ضرایب موجک و نرم‌سازی فازیِ تابع انرژی

امروزه در تحقیقات حوزه پردازش و بازشناخت گفتار، هجا به دلیل ارتباط قوی آن با تولید و ادراک گفتار در انسان، به عنوان یک واحد زیرکلمه‌ای هر روز بیشتر مورد توجه قرار می‌گیرد. آشکارسازی خودکار مرزهای هجایی گامی مهم در تحقیقات مرتبط با نوای گفتار، تولید گفتار طبیعی و حتی بازشناسی گفتار است. در این مقاله روش جدیدی برای آشکارسازی خودکار مرزهای هجایی در سیگنال گفتار پیوسته فارسی با تکیه بر اطلاعات صوتی...

full text

تحلیل ژانر شطح بر اساس نظریه کنش گفتار

استفاده از نظریه‌های زبان‌شناسی در تحلیل آثار ادبی، هم می‌تواند جنبه‌های تازه‌ای از آثار ادبی را پیش روی ما آورد، هم می‌تواند افق‌های تازه‌ای را به روی چشم زبان‌شناسان بگشاید. این مقاله با چنین رویکردی به سراغ نظریه زبانی «کنش گفتار» رفته، آن را روی یکی از مشهورترین ژانرهای ادبی (شطحیات) پیاده می‌کند. در بخش نخست، سعی کردیم با اشاره به سیر تکوینی نظریه کنش گفتار، مبانی آن را توضیح دهیم؛ مبا...

full text

ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs,  to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously ass...

full text

My Resources

Save resource for easier access later


Journal title:
علوم و فناوری های پدافند نوین

جلد ۳، شماره ۱، صفحات ۲۹-۳۸

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023